基于视觉的操纵政策的基本目标是了解场景并预测相应的3D姿势。一些现有的方法利用2D图像作为输入来直接预测3D末代效果通过增强学习[1、12、21、30、50、83]或模仿学习[6、13、13、18、39、43、43、46、94、98]。尽管这些方法可以有效地处理一系列操纵任务,但它们不完全了解物理世界中的空间关系和3D结构[16,19,67,69,95]。在机器人操作中,3D几何信息对于应对复杂任务至关重要,因为机器人必须感知3D环境,有关几何关系的原因以及具有复杂的空间配置。最近的研究越来越集中于机器人操作任务中3D特征表示的明确提取,可以将其分为两组。一方面,某些方法直接编码点云数据[8、32、49、69、73、86、93],要么训练从头开始训练3D策略模型,要么是对预处理的点云启动器(即PointNetNet ++ [58]和PointNext [59])。然而,大规模机器人3D数据和基础模型的有限可用性限制了其概括性的capabilies。此外,处理3D或体素特征会在现实世界应用中造成大量的计算成本,阻碍可伸缩性和实用性。”为了解决这个问题,我们提出了Lift3D框架,该工作提升了基于变压器的2D基础模型(例如Dinov2 [56]或Clip [61])以构建Ro-Bust 3D操纵策略逐步。另一方面,某些方法涉及转换方式,例如将预验证的2D特征提升为3D空间[22,36,67,78],或将3D点云投影到多视图图像中,以输入2D预审计的模型[23,24,76,89]。尽管在几个下游的射击任务上表现出了有希望的表现,但这些模态转换不可避免地会导致空间信息的丧失,阻碍了机器人的痛苦,以了解3D空间关系。基于上述3D政策的挑战,我们提出了一个问题:“我们可以开发一个3D策略模型,该模型集成了大规模预审计的知识,同时结合了完整的3D空间数据输入?Lift3D的主要见解首先是增强隐式3D机器人代表,然后明确编码点云数据以进行策略模仿学习。对于隐式3D机器人表示,我们设计了一种任务意识的蒙版自动编码器(MAE),该自动编码器(MAE)以自我监督的方式处理2D图像并重建3D地理信息,如图1 A所示)。具体来说,我们利用机器人操作[25,55]的大规模未标记数据集,并利用多模型模型(即剪辑)来根据任务文本描述提取图像注意图。然后将这些注意图回到2D输入中,以引导MAE
主要关键词